El corpus paral·lel del Diari Oficial de la Generalitat de Catalunya

نویسندگان

چکیده

En aquest article presentem el procés de compilació la nova versió del corpus paral·lel català-castellà creat a partir dels textos Diari Oficial Generalitat Catalunya (DOGC). Es descriuen els processos descàrrega, conversió text, segmentació i alineació automàtica. Tots programes que s'han desenvolupat per dur terme aquests es distribueixen amb una llicència lliure compilat pot descarregar lliurement. A més, descriu d'entrenament avaluació dos motors traducció automàtica neuronal castellà-català s'ha dut fent servir paral·el.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Presidència de la Generalitat Presidencia de la Generalitat

I. Moltes de les causes de la corrupció es troben en la falta de desenvolupament del sistema democràtic, per no haver creat mecanismes reals de participació ciutadana en el control eficaç de les seues institucions, així com en l’absència de rendició de comptes dels responsables polítics davant de la ciutadania i dels seus òrgans de representació. II. La corrupció deteriora l’Estat de dret i imp...

متن کامل

La subjetivización del de que en el español de Colombia

This paper deals with the phenomenon known as dequeísmo in Spanish, in particular with the semantic differences between canonical sentences with que and dequeísta sentences. I analyze previous corpus studies of dequeísmo, test their predictions with an independent corpus of spoken Colombian Spanish, and finally carry out a logistic regression to test new possible parameters that might influence...

متن کامل

La Filosofía de Windows: El Paradigma del Paso de Mensajes

ado su gran éxito comercial, Windows se ha convertido en el estándar de facto para el desarrollo de aplicaciones dirigidas al usuario general. Varias han sido las razones para este suceso, destacando entre las más importantes, su interfaz de tipo gráfico con el usuario, el manejo multitarea, y la relativa independencia de los programas de aplicación en relación al hardware sobre el que se ejecu...

متن کامل

Guía de diseño basada en el Modelo de Motivación del Negocio BMM* para la mejora del alineamiento entre el Almacén de Datos y la Estrategia del Negocio

* Business Motivation Model Resumen Garantizar que los almacenes de datos estén alineados a la estrategia del negocio es primordial para su éxito, ya que éstos son utilizados por los sistemas de apoyo a la toma de decisiones con el fin lograr el plan estratégico de la organización. En este contexto, el grupo de investigación Lucentia se ha preocupado por diseñar AD en el contexto organizacional...

متن کامل

Herramientas de anotación de corpus de habla espontánea del Laboratorio de Lingística Informática de la UAM

We show a toolbox for linguistic annotation (including phonology, sillabification, part of speech, lemma and morphological features) especially adapted to Spanish spoken corpora. These tools have been developed and validated against several spontaneous speech corpora compiled by the Laboratorio de Lingüística Informática-UAM: C-ORAL-ROM, CHIEDE, CORLEC

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Linguamática

سال: 2023

ISSN: ['1647-0818']

DOI: https://doi.org/10.21814/lm.14.2.380